A国产精品一区第二页

檔案數(shù)字化中OCR的應(yīng)用

發(fā)布時間：2019-01-05 閱讀量：60

? 信息時代，檔案數(shù)字化已成為今后一段時期檔案工作的重中之重，紙質(zhì)檔案掃描工作在各地如火如荼地進(jìn)行。然而，掃描所產(chǎn)生的電子檔案實(shí)際上只是以圖像形式存在的文件，而非真正意義上的文本文件。也就是說，計(jì)算機(jī)只認(rèn)識檔案的外表，卻不認(rèn)識其內(nèi)在文字。用戶通過計(jì)算機(jī)只能看到檔案的原貌，卻不能對其中的內(nèi)容進(jìn)行引用、檢索等操作，這無疑對將來的電子檔案利用工作造成了很大的不便?？紤]到檔案用戶的利用需求，若要得到真正文本形態(tài)的電子檔案，使檔案數(shù)字化工作更加有效、更加徹底，便要應(yīng)用到OCR技術(shù)。

　 ?一、OCR概況

　　所謂OCR（Optical Character Recognition）即光學(xué)字符識別。通俗點(diǎn)說，就是讓計(jì)算機(jī)

　　“認(rèn)字”。其原理是通過專門的OCR軟件將含有文字的圖像按字切割成可獨(dú)立識別的單元，然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征。通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù)，判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼并按通用格式輸出保存在文本文件中。

OCR的工作流程為影像輸入、影像前處理、文字特征抽取、比對識別、人工校正、最后將識別結(jié)果輸出保存。①雖然一張圖像真正用于軟件識別的時間不到一秒，但前期和后的加工處理不可小視。尤其是前兩個環(huán)節(jié)的操作，往往決定了OCR軟件的識別率，乃至整個OCR工作的效率。而后期人工校正環(huán)節(jié)，則是保證OCR工作質(zhì)量的最直接環(huán)節(jié)。

　　二、OCR技術(shù)的優(yōu)勢及其在檔案數(shù)字化過程中的應(yīng)用

　　OCR技術(shù)相對于傳統(tǒng)的手工錄入方式來說，具有強(qiáng)大的優(yōu)勢。首先，OCR文字識別的速度遠(yuǎn)快于手工錄入。根據(jù)國際通行的打字速度評級標(biāo)準(zhǔn)，即使是專業(yè)人員，每分鐘也僅能輸入150~240個字。而采用OCR技術(shù)，即使算上前后期的處理環(huán)節(jié)所花時間，其速度也絕對比前者快好多倍。其次，OCR文字識別的質(zhì)量遠(yuǎn)高于手工錄入。雖然由于各種因素影響，OCR技術(shù)的識別率很難達(dá)到100%，但比起大批量手工錄入，其出錯率要小得多。最后，OCR還節(jié)省了大量人力資源，優(yōu)化了資源配置，使人員分配于更加有意義的工作。

　　對于檔案數(shù)字化工作來說，OCR技術(shù)除了具有以上幾個普遍的優(yōu)勢之外，還有其獨(dú)特的用武之地。

　　1.創(chuàng)新著錄標(biāo)引方式

　　創(chuàng)建檔案目錄數(shù)據(jù)庫是一項(xiàng)較基礎(chǔ)的檔案數(shù)字化工作，目前大多數(shù)檔案館都在進(jìn)行這項(xiàng)工作很多檔案館已建成較為完備的目錄庫。然而各檔案部門的檔案條目基本都是通過手工錄入的，既費(fèi)時又費(fèi)力，還很容易出錯。尤其是一些檔案、標(biāo)題很長，又是“印發(fā)”又是“轉(zhuǎn)發(fā)”一個題名就占了好幾行，要輸入老半天。

　　OCR技術(shù)提供了一種新的著錄方式，使檔案條目通過計(jì)算機(jī)錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項(xiàng)：如題名、文號、責(zé)任者等復(fù)制粘貼到目錄數(shù)據(jù)庫的相應(yīng)字段中去。

　　但這么做必須先掃描檔案全文、OCR然后再輸條目，顛覆了檔案數(shù)字化工作的一般工作流程。因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理，再復(fù)制粘貼條目或通過特定的程序自動采集條目信息

　　但由于很多卷內(nèi)目錄是手寫的OCR無法識別，只得依靠手工錄入。相信隨著未來技術(shù)的發(fā)展，OCR在這方面的應(yīng)用一定能夠有所突破。

　　此外，系統(tǒng)還可以對OCR后的檔案全文進(jìn)行詞頻統(tǒng)計(jì)、內(nèi)容分析從而自動提取關(guān)鍵詞、主題詞等標(biāo)識符一定程度上實(shí)現(xiàn)了檔案內(nèi)容的自動標(biāo)引。

　　2.實(shí)現(xiàn)真正的全文檢索

　　檔案工作中所說的全文檢索實(shí)際包括兩種類型：一種是僅對檔案目錄數(shù)據(jù)庫進(jìn)行檢索，找到相關(guān)條目后再打開相應(yīng)的檔案全文。目前檔案館大多采用這種檢索方式。且尚有很多檔案沒有電子全文。另一種是真正的全文檢索，即直接對檔案全文庫進(jìn)行檢索，而且是對檔案全文進(jìn)行逐字檢索。很明顯，后一種檢索方式的查全率比前者要高出很多。使用戶能從浩如煙海的檔案館藏中找到更多所需信息，更深入地開發(fā)利用檔案信息資源。而要實(shí)現(xiàn)真正的全文檢索自然離不開OCR技術(shù)，因?yàn)橹挥袑呙鑸D像中的文字變成文本格式，才有可能對其中的文字進(jìn)行逐字檢索。

　　3.支持雙層PDF技術(shù)

　　所謂雙層PDF，就是一個PDF文件中的每一頁都包含兩層，上層是掃描所得到原始圖，下層是OCR識別的文字結(jié)果。這種技術(shù)在數(shù)字圖書館領(lǐng)域已得到廣泛應(yīng)用。我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻(xiàn)大多采用了雙層PDF技術(shù)。

　　由于采用雙層PDF技術(shù)既能較好地保證檔案的原真性，在用戶需要時又能對檔案中的文字進(jìn)行選擇、復(fù)制、搜索等處理。因此必將在今后的檔案數(shù)字化工作中越來越得到青睞。而這一技術(shù)的運(yùn)用必須首先以OCR技術(shù)為支撐。

　　4.拓寬檔案用戶利用面

　　以往的檔案用戶大多是基于檔案的憑證價值而對其加以利用如政府查閱某份文件、居民查閱房產(chǎn)證、結(jié)婚證、學(xué)籍卡等這些利用需求對檔案的原真性要求較高。很多情況下還是需要紙質(zhì)檔案才能發(fā)揮作用。但檔案用戶的利用面絕不應(yīng)該僅限于此，檔案除了擁有憑證價值還與圖書、情報(bào)一樣具有情報(bào)價值、參考價值。如利用檔案進(jìn)行學(xué)術(shù)研究時，用戶就更加注重檔案的知識性、信息性但如果檔案是紙質(zhì)的要利用其中的內(nèi)容就必須親自去檔案館。通過印刷或手工摘錄所需信息，非常不便以至于有些用戶轉(zhuǎn)而通過網(wǎng)站或數(shù)字圖書館查閱所需信息。

　　將紙質(zhì)檔案數(shù)字化并采用OCR識別，能夠使檔案信息資源實(shí)現(xiàn)全文檢索、網(wǎng)絡(luò)傳輸、方便用戶異地檢索、復(fù)制引用。從而深化用戶對檔案內(nèi)容的查詢與利用，拓寬其利用面。使檔案也能像圖書、情報(bào)一樣成為人們?nèi)粘Ｉ钪蝎@取信息、利用信息、增加學(xué)識的手段使檔案多方面地服務(wù)于公眾。

　　三、提高檔案數(shù)字化過程中的OCR識別率OCR識別率是整個OCR工作的中心問題。有專家認(rèn)為，OCR識別率低于90%，采用OCR技術(shù)便毫無意義因?yàn)楹笃谛枰M(jìn)行大量的人工校正工作，抵消了OCR所帶來的效率。

對于檔案數(shù)字化這樣浩大的工程來說，提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時間精力。從而提高整個檔案數(shù)字化工作的效率極大地降低檔案數(shù)字化的成本。

上一條：怎樣使用掃描儀掃描底片？

下一條：高拍儀給我們帶來的各種好處返回

中文字幕亚洲一区人妻,亚洲天堂精品在线观看,成人中文字幕不卡,日韩精品嘿嘿嘿视频

首頁

解決方案

產(chǎn)品中心

技術(shù)服務(wù)

關(guān)于我們

檔案數(shù)字化中OCR的應(yīng)用

解決方案

產(chǎn)品中心

技術(shù)服務(wù)

關(guān)于我們

成都總部

貴州分公司

服務(wù)熱線